﻿ Course 6 Evaluation in NLP, question-answering systems and how to write a good scientific paper Dan Cristea With some slides offered by Adrian Iftene, others from one of my doctoral courses and a paper by Dan Moldovan et al Content ò NLP Systems Evaluation ò Question Answering systems ò A paper gives good hints on how to write 2 NLP Systems need evaluation } “An important recent development in NLP has been the use of much more rigorous standards for the evaluation of NLP systems” Manning and Schutze } To be published, all research must: ◦ establish a baseline, and ◦ quantitatively show that it improves on the baseline and the state-of-the-art 3 NLP Systems – ways of doing evaluation ò “How well does the system work?” ò Possible domains for evaluation ò Processing time of the system ò Space usage of the system ò Human satisfaction ò Correctness of results ò Measures: (Accuracy, Error), (Precision, Recall, F- measure) 4 Accuracy and Error ò To evaluate means to compare the system output against a gold standard ò The results of a system are marked as: ò Correct: matches the gold standard ò Incorrect: otherwise 5 Accuracy and Error - Example ò A system that detects the language ò Accuracy = 66 66 % ò Error = 33 33 % 6 Precision and Recall ò Precision and Recall are set-based measures ò They evaluate the quality of some set membership, based on a reference set membership ò Precision: what proportion of the retrieved documents is relevant? ò Recall: what proportion of the relevant documents is retrieved? 7 Precision and Recall – Example (1) relevant documents retrieved documents Precision = 4 / 10 = 40 % 8 Recall = 4 / 14 = 28 57 % Precision and Recall – Example (2) relevant documents retrieved documents Precision = 14 / 20 = 70 % 9 Recall = 14 / 14 = 100 % Precision and Recall – Example (3) relevant documents retrieved documents Precision = 0 / 6 = 0 % 10 Recall = 0 / 14 = 0 % F-measure (F-score or F1-score) ò F-measure is a measure of a test's accuracy, and it considers both the precision p and the recall r ò General formula: ò F1-measure: ò F2-measure = ? 11 Question Answering - Definition ò Question Answering (QA): a QA system takes as input a question in natural language and produces one or more ranked answers from a collection of documents 12 Question Answering - Modules ò QA systems normally adhere to the pipeline architecture composed of three main modules (Harabagiu and Moldovan, 2003): ò question analysis – the results are keywords, answer and question type, focus ò paragraph retrieval - the results are a set of relevant candidate paragraphs/sentences from the document collection ò answer extraction – the results are a set of candidate answers ranked using likelihood measures 13 QA – Question Type ò Harabagiu and Moldovan, 2003: ò Factoid – “Who discovered the oxygen?”, “When did Hawaii become a state?” or “What football team won the World Coup in 1992?” ò List – “What countries export oil?” or “What are the regions preferred by the Americans for holidays?” ò Definition – “What is a quasar?” or “What is a question-answering system?” ò How, Why, hypothetical, semantically constrained, polar (Yes/No) and cross-lingual questions 14 QA – Answer Type ò Person - "What”, "Who”, "Whom", "With who" ò Location (City, Country, and Region) - "What state/ city“, "From where”, "Where“ ò Organization - "Who produced“, "Who made“ ò Temporal (Date and Year) – “When” ò Measure (Length, Surface and Other) – “How much” ò Count - "How many“ ò Yes/No – “Did the girl fear that?”, “Is the car blue?” 15 QA – Search collection ò Local collections, internal organization documents, newspapers, Internet ò Closed-domain - deals with questions from a specific domain (medical, baseball, etc ) Can exploit domain-specific knowledge (ontologies, rules, disambiguation) ò Open-domain – general question about anything Can use general knowledge about the world 16 Examples of such systems ò The first QA systems created in the 60s: ò BASEBALL (Green, 1963) - answer questions about baseball games ò LUNAR (Woods, 1977) – geological analysis of rocks returned by the Apollo moon missions ò IURES (Cristea, Tufiş, Mihăiescu, 1985) – medical domain, querying national programs library ò QUERNAL (Cristea, Tufiș, 1987) – personnel database, drilling and extraction, metallurgy, geography 17 QA - Systems of today ò Powerset: http://www powerset com/ ( http://www bing com/) ò Assimov – the chat bot: http://talkingrobot org/b/ ò AnswerBus: http://www answerbus com/index shtml ò NSIR: http://tangra si umich edu/clair/NSIR/html/nsir cgi ò START: http://start csail mit edu/ 18 QA - Competitions ò TREC (Text REtrieval Conference) - started in 1992 http://trec nist gov/ ò National Institute of Standards and Technology (NIST), Gaithersburg, Maryland, USA ò CLEF (Cross Language Evaluation Forum) started in 2000 - http://www clef-campaign org/ European languages in both monolingual and cross-language contexts ò Coordination: Istituto di Scienza e Tecnologie dell'Informazione, Pisa, Italy ò Romanian Institute for Computer Science, Romania 19 CLEF 2011 – Input Data An excerpt from a ‘gold standard’ file 20 UAIC System – CLEF 2011 ò Our group participated at CLEF exercises since 2006: ò 2006 – Ro–En (English collection) – 9 47% right answers ò 2007 – Ro–Ro (Romanian Wikipedia) – 12 % ò 2008 – Ro–Ro (Romanian Wikipedia) – 31 % ò 2009 – Ro–Ro, En–En (JRC-Acquis) – 47 2 % (48 6%) ò 2010 – Ro-Ro, En-En, Fr-Fr (JRC-Acquis, Europarl) – 47 5% (42 5%, 27 %) 50 45 40 35 30 25 20 15 10 5 21 0 2006 2007 2008 2009 2010 UAIC System components Background Test data (documents, knowledge questions, possible answers) Lucene index 1 Questions processing: Answers processing: - Lemmatization - Lemmatization - Stop words elimination - Stop words elimination - NEs identification - NEs identification - Lucene query - Lucene query documents Identify relevant documents Lucene indexes 2 Partial and global scores 22 per answers Background knowledge indexing ò The Romanian background knowledge has 161,279 documents in text format ò 25,033 correspond to the AIDS topic ò 51,130 to Climate Change topic ò 85,116 to Music and Society topic ò The indexing component processes the name of the file and the text of the article => Lucene index 1 23 Test data processing – Processing questions ò Stop words elimination ò Lemmatization ò Named Entity identification ò Lucene query building 24 Test data processing – Processing possible answers ò Ontologies are used (Iftene and Balahur, 2008), for instance, to locate cities (relation [is located in]) ò In which European cities has Annie Lennox performed? ò Answers containing non-European cities are eliminated (here: replaced with the value XXXXX) 25 Searching using relevant documents for questions ò Then in every index, queries associated to possible answers are asked for using Lucene ò For every answer, a list of documents displaying Lucene relevance scores is obtained ò Score2(d, a) is the relevance score for document d when searched with the Lucene query associated to answer a 26 Despre question-answering ò Harabagiu, S & Moldovan, D (2013) Question Answering In R Mitkov (ed ) The Oxford Handbook of Computational Linguistics ò This article reviews current research in integrating knowledge- based NLP methods with shallow processing techniques for QA Textual Question Answering (QA) identifies the answer to a question in large collections of on-line documents By providing a small set of exact answers to questions, QA takes a step closer to information retrieval rather than document retrieval A QA system comprises three modules: a question-processing module, a document- processing module, and an answer extraction and formulation module => la Seminarul matematic, UAIC Partea a 2-a Analiza structurii unei lucrări (de ce mi-a plăcut această lucrare?) Analiza conţinutului unei abordări în QA Prezentată la ACL- EACL 2001, Toulouse abordări recente, în care se va înscrie şi cea descrisă în lucrare susţinute de citări Prima secţiune trebuie să fie întotdeauna Introducerea domeniul în care se plasează cercetarea Există o competiţie care justifică preocupările Este prezentată noutatea pe care o aduce cercetarea Sarcina este detaliată Prezentarea structurii lucrării încheie Introducerea diferite soluţii la Secţiunea a doua descrie alte prezintă iată abordări cunoscute problema evidenţ Citează o frază frumoasă care introduce trecerea în revistă care urmează În nici una din ele însă nu se utilizează buclele cu feedback - trăsătura care va face subiectul lucrării Dacă e vorba de cunoştinţe general acceptate, nu e i redundant, se mai spune absolut necesar să le citez Deş o dată că această trăsătură îmbunătăţeşte semnificativ performanţa sistemelor QA Secţiunea a treia e prima dintre cele în care se descrie Module NE pot fi tră sătura introdusă în incorporate în sisteme QA sistemele QA pentru a mări eficienţa Argument: fără un modul NE performanţa e mică Citează! Totuşi, recunosc o problemă în această abordare Dacă un sistem este descris în lucrare, un desen al arhitecturii lui Dă exemple şi discută-le utilizând fă diagrame care lămuresc mai bine decât un text Prezintă metoda pe exemple Se precizează în ce moment al derulării procesului devine utilă tehnologia nou introdusă Cazul 1 cazul 2 cazul 3 Secţiunile care se înlănţuie logic, pentru că următoare detaliază aspecte introduse în precedenta, sunt legate prin fraze care precizează acest lucru Secţiunea a patra detaliază un aspect important care a fost menţionat în secţiunea precedentă Precizează motivul pentru care e nevoie de această trăsătură Descrierea care urmează reprezintă o enumerare, cu aprofundarea fiecărui caz Comentariul care urmează lămureşte funcţionarea pe un exemplu generic Un exemplu concret ajută şi mai mult înţelegerea rezultatului rulării secţiunea a cincea o figură a unei structuri de date utilizate în algoritm Precizează motivul pentru care e nevoie de această trăsătură Se detaliază o funcţie apelată în primul algoritm Include un algoritm dacă îţi aparţine şi crezi că aduce o noutate Formularea trebuie să fie suficient de generică, dar clară până la a-l face reproductibil Comentariul care urmează lămureşte funcţionarea pe un exemplu generic Exemple completează explicaţiile şi la acest algoritm secţiunea a şasea: Un comentariu asupra evaluarea sistemului încă rcării sistemului prin considerarea trăsăturilor descrise faţă de cazul în care nu s-ar fi folosit: mic Precizează corpusul de exemple şi dimensiunea lui Este foarte important ca acesta să fie unul cunoscut Analiza comparativă a celor trei bucle descrise (toate Precizează regulile şi posibilităţ ile) formulele prin care se face evaluarea Acestea trebuie să fie cunoscute Dacă vrei să propui o nouă schemă de evaluare, scrie o lucrare pe această temă Introducerea trăsăturilor descrise dovedeşte că performanţa sistemului se mărește semnificativ Ultima secţiune conţine întotdeauna concluziile Prima frază a concluziilor Multe reviste, că rţi preferă rezumă scopul cercetării şi ordinea alfabetică a conţinutul lucrării autorilor Toate referinţele trebuie să Se rezumă metodele utilizate fie complete în realizarea scopului Se reiau rezultatele cele mai semnificative din secţiunea de evaluare în directă legătură cu scopul cercetării Se compară metoda propusă ine citări ale propriilor cu altele care realizează Puţ ri lucruri asemănătoare Din lucră comparare trebuie să rezulte avantajele O secţiune de mulţumiri se poate include între concluzii şi referinţe Lista de referinţe încheie lucrarea Înainte de a începe căutarea unui răspuns, verifică dacă întrebarea nu a mai fost pusă înainte Dacă DA – ia răspunsul dintr-o memorie cash Dacă NU – caută răspunsul printre paragrafele care: • conţin cuvintele cheie prezente în întrebare • includ un concept din aceeaşi categorie ca şi tipul de răspuns aşteptat Cum? Se obţine o structură de constituenţi cu un parser Collins (1996) – disponibil Din ea se generează o structură de dependenţă: un arbore de constituenţi se mapează în relaţii binare între cuvintele head şi sateliţii lor reguli (Magerman, 1995) şi (Jelinek, 1994) pentru recunoaşterea cuvintelor head în structuri de constituenţi şi propagarea lor către părinţi de ce nu de ce nu acesta? acesta?de ce nu acesta? Recuperarea tipului întrebării Cu toate că structura este greşită tipul aşteptat al răspunsului: (neambiguu) Dacă ar fi ambiguu (what ) tipul ar fi căutat într-o taxonomie a răspunsurilor care leagă câteva vârfuri de o mulţime de concepte WordNet: PERSON, PRODUCT, NUMERICAL VALUE, COUNT, LOCATION (38 în total) Recuperarea cuvintelor cheie din întrebare ò O listă ordonată: ò nume de entităţi ò citări ò conceptele care au amorsat recunoaşterea tipului de răspuns ò adjuncţi Expresie booleană motorului de căutare v (Moldovan et al , 2000) Buclele de feedback ò Scop: controlul paragrafelor aduse de sistemul IR ò Câte? 3! Prima buclă ò Când se activează? ò prea multe sau prea puţine! ò faţă de o plajă – care depinde de tipul răspunsului ò Dacă sunt între limite: ò se filtrează documentele care nu conţin cel puţin un concept ca cel al tipului aşteptat ò cele rămase se parsează la dependenţă è forma semantică a răspunsului A doua buclă ò Când se activează? ò când forma semantică a întrebării şi a răspunsului nu pot fi unificate din considerente morfologice şi/sau lexicale ò 3 paşi în unificare? ò marcarea conceptelor din răspuns care corespund tipului de răspuns aşteptat ò identificarea în răspuns a conceptelor din întrebare ò inclusiv sinonime, hipernime şi derivate morfologice ò verificarea similarităţii dependenţelor ò două clase Prima clasă: similaritatea se verifică: corespondenţă 1-la-1 între dependenţele binare ale întrebării şi cele ale răspunsului A doua clasă: similaritatea nu se verifică: există diferenţe între conceptele din întrebare şi cele din răspuns necesară o inferenţă: head of government = president A treia buclă ò Când se activează? ò când forma semantică a întrebării şi a răspunsului nu pot fi unificate din considerente semantice ò Două clase de dependenţe similare? ò Prima: induse de un rezolvitor de anafore în întrebare: Bill Gates în răspuns: Microsoft founder necesită cunoaştere asupra lumii!!! A treia buclă ò Două clase de dependenţe similare? ò A doua: induse de parafraze şi informaţii suplimentare volcano IS-A mountain lava IS-PART-OF volcano inside fragments of lava HAVE- PROPERTIES-OF lava din WordNet Tratarea variaţiilor cuvintelor cheie ò Variaţii de natură morfologică Tratarea variaţiilor cuvintelor cheie ò Variaţii de natură lexicală kill v killer n assasin n far adv distance n Tratarea variaţiilor cuvintelor cheie ò Variaţii de natură semantică Tratarea variaţiilor cuvintelor cheie ò Variaţii de natură semantică sled IS-A vehicle cart IS-A vehicle pull cart SYNONYM-WITH harness COUNT dog harness Tratarea variaţiilor din întrebări ò Acelaşi răspuns poate fi cerut de întrebări formulate diferit ò o colecţie de întrebări este aranjată în clase de echivalenţă ò criteriul: similaritatea ò primul algoritm: împărţirea în clase în ritmul considerării întrebărilor ò al doilea algoritm: funcţia de stabilire a similarităţii Construirea claselor de similaritate ò Intrări: ò o mulţime de clase de similaritate (seturi de întrebări) ò o întrebare q ò Procesare: ò pentru fiecare întrebare deja procesată qc: dacă similar(q, qc) atunci introdu q în clasa c ò altfel: consideră o nouă clasă din care face parte q Funcţia de similaritate ò Intrări: o pereche de întrebări q = w, …, w 1n q’ = w’, …, w’ 1n lexical-relation=string identity; boolean function similar(w1,…,wn,w1’,…,wn’) #-matches=0; for each pair (wi, wj) de cuvinte conţinut if lexical-relation(wi,wj) then #-matches++; if #-matches/#-cuvinte-conţinut>t then true else false; Relaxări: lexical-relation = aceeaşi rădăcină lexical-relation = sinonime conform WordNet lexical-relation = hipernime conform WordNet Parsere pentru Engleză şi Română ò Engleză: ò structuri de constituenţi: the Stanford NLP Group (Dan Klein: statistical syntax learning) http://nlp stanford edu/downloads/lex-parser shtml ò structuri de dependenţă: Michael Collin ò Română: ò structuri de dependenţă: http://nlptools info uaic ro/WebFdgRo/ Despre elaborarea și prezentarea unei lucrări de licență ò Un articol online: http://profs info uaic ro/~dcristea/cursuri/ Cum se scrie o teza de licenta pdf ò Următoarele două slide-uri demonstraează cum NU trebuie să arate niște slide-uri Un slide prost făcut • Care este scopul unei lucrări de diplomă? • Cînd încep să scriu la teză şi în ce ritm lucrez la ea? • Cum se scrie o introducere? • În ce tip de lucrare se încadrează lucrarea mea? • Ce scriu în capitolul de concluzii? • Ce mai conţine o lucrare de diplomă? • Care sînt fazele unei descoperiri? • Cît de mult trebuie să citesc despre ce au făcut alţii? • Cît de sincer trebuie să fiu în lucrare? • Utilizez calculatorul la redactarea tezei? • Cum trebuie să arate grafic o lucrare? • Cum se prezintă o lucrare de diplomă? • Cum se face un slide? și unul catastrofal Cum se scrie o lucrare (de diplomă) • Întrebări Des Puse (FAQ) despre lucrarea de diplomă • • Care este scopul unei lucrări de diplomă? • • Să vă înveţe să scrieţi despre munca voastră Să vă înveţe să formulaţi o documentaţie tehnică de o manieră profesionistă Să vă înveţe să căutaţi prin literatura de specialitate sau pe internet alte abordări pe aceeaşi temă Să vă înveţe să prezentaţi o problemă de la scop la soluţie Să vă înveţe să vă exprimaţi de o manieră riguroasă Un document scris este unul care rămîne şi poate fi oricînd consultat şi criticat De aceea reflectaţi de 10 ori şi scrieţi o singură dată • • Nu în ultimul rînd o teză reprezintă şi un certificat pentru Facultatea care te-a format că aţi ajuns la maturitatea necesară pentru a începe o carieră profesională ori ştiinţifică Este un document cu valoare de atestare, care se păstrează şi care poate să probeze, în anii ce vin, că diploma care vi s-a eliberat este reală şi nu măsluită • • Cînd încep să scriu la teză şi în ce ritm lucrez la ea? • • Începeţi să lucraţi la teză cu mult înainte de prezentare Cel mai bine e ca în perioada în care lucraţi la program, în care acumulaţi ori triaţi date, citiţi ce au făcut alţii şi încercaţi să sistematizaţi, să faceţi note Acestea le puteţi strînge într-un număr de dosare egal cu numărul capitolelor lucrării, pe fiecare dosar notînd titlul capitolului În felul acesta, cînd vă hotărîţi să treceţi la operaţia de redactare a tezei, în locul unei operaţie de compunere, de creaţie, anevoioasă şi supusă riscurilor, veţi avea de făcut mai mult una de triere, de organizare şi interpretare, de reformulare a materialelor adunate Tot adunînd note, concepţia unui capitol se va forma de la sine La un moment dat vă va fi astfel uşor să detaliaţi pe coperta dosarului conţinutul capitolului • • Notînd, cu gîndul la lucrare, încă din perioada în care lucraţi la program, face scrierea mai uşoară pentru că totul este încă proaspăt în minte Mai mult, în această fază se pot semnala greutăţi, inconsistenţe, cazuri ce nu pot fi luate încă în considerare din cauza unor limitări teoretice ale abordării pe care o dezvoltaţi Dacă nu le notaţi atunci cînd daţi de ele, le veţi uita De asemenea puteţi nota, într-un limbaj simplificat, algoritmi ce vi s-au părut interesanţi în momentul în care i-aţi construit • • Vă propun un experiment Faceţi un efort şi scrieţi acum, mîine ori poimîine o bucată dintr-un capitol, poate chiar un capitol întreg Unul despre care aveţi o imagine clară despre cum trebuie să arate, ce trebuie să conţină Puneţi-l apoi deoparte şi nu vă mai atingeţi de el o lună Citiţi-l apoi după o lună Pariez că unele exprimări vă vor părea străine, ca şi cînd n-ar fi fost scrise de dumneavoastră, unele străine în bine, altele în rău, şi cu siguranţă veţi simţi nevoia să formulaţi altfel unele pasaje, ca să nu spun nimic de conţinut De aceea un proces de scriere trebuie să fie unul de durată O carte, ori o teză scrisă pe nerăsuflate este de cele mai multe ori una slabă Desigur nu neg că puteţi avea o inspiraţie divină care să vă facă să lucraţi demenţial şi să daţi gata într-un timp record lucrarea Dar n-o publicaţi a doua zi Lasaţi-o la dospit un timp Ocupaţi-vă în timpul ăsta de altceva, eventual luaţi-vă un concediu Cînd veţi reveni veţi fi surprins să vedeţi cît de mult veţi dori să modificaţi la textul iniţial Cu siguranţă că mintea noastră are o 